化合物InChI格式详解 您所在的位置:网站首页 h2 so 3怎么读 化合物InChI格式详解

化合物InChI格式详解

2024-05-28 00:24| 来源: 网络整理| 查看: 265

化合物InChi格式详解

InChi格式是格式对应化合物是唯一的。但是在科研过程中发现InChi格式实在是太唯一了,即使三维结构有不同,也一样会被识别为不同的分子。

为了探究这个问题,需要对InChi格式有更加深入的了解。

一、InChi格式简介

国际化合物标识(InChI,英语:International Chemical Identifier)是由国际纯粹与应用化学联合会和国家标准技术研究所联合制定的,用以唯一标识化合物IUPAC名称的字符串。 1999年,史蒂夫·海勒 Steve Heller和史蒂夫·斯坦 Steve Stein提出InChi — 可自由使用的化合物规范标识表示法。开发者最初为美国国家标准与技术研究院NIST,现由国际化学品标识符基金会 InChI Trust继续深入开发。InChI Trust是一家非营利性英国慈善机构,由成员组织的捐款支持。该软件最初版本于2005年4月15日发行,稳定版本为Ver.1.05(2017年3月),现行版本为Ver.1.06(英文)。该软件可在Windows和Linux操作系统下运行,有32位、64位两个版本。截至2020年12月,InChi已经更新至1.06版本(已适用于高分子)及RInChI(适用于化学反应)。目前因奇项目小组正致力于开发混合物、溶剂、大分子、生物高分子、无机物、同分异构体等的表达方法。InChi及其InChIKey,已逐渐成为全球科学家必不可少的工具,为化学提供了一种新的通用语言,使化学家和计算机主宰的海量化学信息能够更有效地进行沟通,从而能够加快科学创新研究的步伐。

软件下载链接如下:https://www.inchi-trust.org/download-latest-inchi-standard-software/

此外,一些在线工具也可以提供InChi格式的支持,比如pubchem: https://pubchem.ncbi.nlm.nih.gov//edit3/index.html

InChi 在三个方面不同于广泛使用的CAS登记号:

首先,它们可以自由使用且非专有;它们可以从结构信息中计算出来,不必由某些组织分配;InChi 中的大部分信息都是人类可读的(需要练习)。

因此,InChi 可以被视为类似于IUPAC名称的通用且极其正式的版本。它们可以表达比更简单的SMILES符号更多的信息,不同之处在于每个结构都有一个唯一的InChi 字符串,这在数据库应用程序中很重要。 但是,需注意的是,InChi中没有表示有关原子的 3 维坐标的信息。

二、InChi格式详解

InChI编码是一串由斜杠(/)隔开的有层级关系的数字组成的。每个InChI编码都是由InChI版本号开始,接着一个主层号。主层下包括含化学分子式层、原子关系层和固定氢原子子层等基于分子结构的层。此外,还有附加的层,如电荷层、立体化学层(和/或)同位素信息层等。且这些附加的层也有其各自的子层 其关系如下表所示:

层类型子层类型表示方法主层化学式无前缀,以当前版本号“1”表示。这是每个 InChI 中唯一必须出现的子层。InChi中使用的数字以公式的元素顺序给出,不包括氢原子。原子连接以字母“c”为前缀开始。化学式中的原子(氢除外)按顺序编号;该子层描述了哪些原子通过键与其他原子相连。氢原子以字母“h”为前缀开始。描述有多少氢原子与其他原子相连。电荷层电荷以字母“q”为前缀开始。质子以字母“p”为前缀开始。立体化学层双键和积烯以字母“b”为前缀开始。原子和丙二烯的四面体立体化学以字母“t”、“m”为前缀开始。立体化学信息的类型以字母“s”为前缀开始。同位素异构体层以字母“i”为前缀开始。此外立体异构体还可能会涉及到“t”、“m”、“b”、“s”固定氢原子层以字母“f”为前缀开始。包含除原子连接之外的部分或全部上述类型的层;可能以“ o”子层结束。从未包含在标准 InChi 中。再连接层以字母“r”为前缀开始。包含具有重新连接的金属原子的结构的整个 InChI。从未包含在标准 InChI 中。 举例

InChI=

1/C6H8O6/c7-1-2(8)5-3(9)4(10)6(11)12-5/h2,5,7-10H,1H2/t2-,5+/m0/s1化学式层原子连接层氢原子层立体化学层 InChIKey格式的使用

精简的 27 个字符的InChIKey是完整InChi(使用SHA-256算法)的散列版本,旨在实现化合物的轻松网络搜索。标准InChIKey是标准 InChi 的散列对应物。截至 2007 年,Web 上的大多数化学结构都以GIF文件表示,无法搜索化学成分。事实证明,完整的 InChi 过于冗长,难以轻松搜索,因此开发了InChIKey。两个不同分子具有相同 InChIKey 的可能性非常小,但非零,但仅前 14个字符重复的概率估计为在 75 个数据库中只有一个重复,每个数据库包含十亿个独特结构。由于目前所有数据库的结构都在 5000 万以下,因此目前看来不太可能出现这种重复。最近的一项研究更广泛地研究了碰撞率,发现实验碰撞率与理论预期一致。

InChIKey 目前由三个部分组成,由连字符分隔,分别为 14、10和1个字符,例如XXXXXXXXXXXXXX-YYYYYYYYFV-P。前 14 个字符来自 InChi 的连接信息(电荷层的主层和子层)的SHA-256哈希值。第二部分由8个字符组成,这些字符来自 InChii其余层的哈希值、一个指示InChIKey类型(S标准和N非标准)的字符,以及一个指示所用 InChi版本的字符(目前A为版本 1. ) 最后,末尾的单个字符表示核心父结构的质子化,对应电荷层的子层(N代表不质子化;O、P代表添加质子;M、L代表移除质子。)

参考资料

InChi手册 维基百科 中文 维基百科 英文 SMILES & InChI | 化学结构的线性表示法



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

      专题文章
        CopyRight 2018-2019 实验室设备网 版权所有